Ce cours a pour objectif de vous sensibiliser au Modifiable Areal Unit Problem (MAUP) et à ses implications pour l'analyse spatiale.
Il vous permettra de comprendre comment le choix des unités spatiales peut influencer les résultats de l'analyse et d'apprendre à identifier et à atténuer les effets du MAUP.
Le MAUP (Modifiable Areal Unit Problem) est un biais statistique qui peut influencer les résultats en analyse spatiale.
Il survient lorsque des mesures ponctuelles de phénomènes spatiaux sont agrégées en unités spatiales (comme des régions ou des maillages abstraits) pour calculer des valeurs résumées telles que des taux ou des proportions.
Ces valeurs sont influencées à la fois par la forme et par l'échelle de l'unité d'agrégation.
Les conclusions que vous tirez de l'analyse de données spatiales peuvent varier en fonction de la taille, de la forme et de la configuration des unités géographiques que vous utilisez.
Ce problème peut conduire à des interprétations erronées des données et à des conclusions inexactes.
Les résultats de vos études dépendront du découpage spatial choisi !
Niveau communal : Forte variabilité spatiale de la densité entre communes. Niveau départemental : Lissage des variations par agrégation. Constat : Distribution spatiale et variabilité changent avec l'échelle.
Biais dans les interprétations
Biais dans les études
Généralisation limitée
Impact sur les décisions
Le MAUP survient lorsque les données sont agrégées géographiquement.
Il se manifeste par deux effets principaux :
Il s'agit de la variation des statistiques causée par le regroupement des données en configurations différentes mais à la même échelle.
Exemple : deux maillages différents pour la même zone avec une population répartie régulièrement dans l'espace. Les valeurs agrégées varient selon le découpage choisi.
Même échelle, formes différentes = résultats différents !
L'effet d'échelle provoque une variation des résultats entre niveaux d'agrégation différents.
Exemple de la densité de médecins à Paris PC :
Échelles différentes = résultats différents !
500 observations distribuées aléatoirement Deux variables corrélées (R 0.70)
Trois maillages à comparer :
→ Mêmes données, agrégations différentes
Même ensemble de données, zonages différents :
La forme du zonage modifie la corrélation observée !
Même ensemble de données, même forme (grille), échelles différentes :
L'agrégation à une échelle plus large réduit la variance !
→ Effet de lissage spatial : les valeurs extrêmes sont moyennées
| Employés | Chômeurs | Total | Chômeurs % | |
|---|---|---|---|---|
| Zone A | ||||
| Jeunes | 81 | 9 | 90 | 10% |
| Vieux | 9 | 1 | 10 | 10% |
| Total | 90 | 10 | 100 | 10% |
| Zone B | ||||
| Jeunes | 40 | 10 | 50 | 20% |
| Vieux | 40 | 10 | 50 | 20% |
| Total | 80 | 20 | 100 | 20% |
| Zone A+B | ||||
| Jeunes | 121 | 19 | 140 | 13.6% |
| Vieux | 49 | 11 | 60 | 18.3% |
| Total | 170 | 30 | 200 | 15% |
Données de départ :
Après agrégation (A+B) :
Paradoxe : L'agrégation crée des différences qui n'existaient pas dans les données initiales !
Si l'on combine les zones A et B, on pourrait s'attendre à ce que le taux de chômage global soit de 15% pour les deux groupes.
Mais ce n'est pas le cas !
Résultats observés en combinant A+B :
Ce résultat inattendu est dû à la différence de la taille des populations de chaque groupe dans les zones A et B :
En combinant les zones, le taux de chômage global est davantage influencé par la zone A, qui a une population jeune plus importante.
Cela crée un biais qui donne l'impression que le taux de chômage est plus faible pour les jeunes que pour les vieux
Le choix de l'unité spatiale d'agrégation (zone A, zone B ou A+B) a un impact direct sur les statistiques calculées et peut conduire à des conclusions erronées.
Les statistiques agrégées peuvent raconter une histoire complètement différente de la réalité.
Le Gerrymandering est une pratique qui consiste à manipuler les frontières des circonscriptions électorales afin de favoriser un parti politique ou un groupe particulier.
Concentration (Packing)
Dispersion (Cracking)
Formes bizarres
Effet de zonage appliqué à l'électoral
Même distribution d'électeurs :
Résultats selon le découpage :
Observez :
La manipulation des frontières spatiales peut complètement changer les résultats !
Le MAUP présente un défi en analyse spatiale. Plusieurs approches permettent de minimiser son influence et d'obtenir des résultats plus robustes.
Cinq approches principales :
Objectif
Principe
Mise en pratique
Principe
Avantages
Limites
Principe
Méthode
Résultat
Principe
Régression spatiale pondérée
Modèles hiérarchiques bayésiens
Définition
Méthode
Matrice de voisinage
Ordre de voisinage : Les cellules adjacentes (partageant un côté ou un coin) sont des voisins d'ordre 1.
Pondération : Le paramètre clé contrôle l'équilibre entre la valeur propre et la moyenne des voisins.
Plus le poids est élevé pour la cellule centrale, moins le lissage est prononcé.
Matrice de voisinage Queen : Contiguïté par côtés et coins.
50%-50% : Lissage équilibré. 75%-25% : Lissage plus conservateur (préserve davantage les valeurs locales).
Impact : Plus le poids de la cellule centrale est élevé, moins le lissage est prononcé. Le choix de la pondération dépend de l'objectif analytique.
Le lissage spatial est une méthode d'estimation non paramétrique de la fonction d'intensité de données ponctuelles.
Il permet de révéler des structures spatiales sous-jacentes en filtrant l'information.
S'affranchit des découpages administratifs arbitraires !
Il s'agit d'une modélisation locale qui repose sur le choix de deux paramètres clés :
Le kernel décrit la façon dont le voisinage est appréhendé (type de fonction à l'intérieur de la fenêtre) : gaussien, uniforme, triangulaire, etc.
La bandwith quantifie la « taille » du voisinage.
Le choix de la bandwith est un arbitrage entre la précision spatiale de l'analyse et sa qualité statistique (compromis biais-variance).
On peut utiliser un histogramme de Moran afin de choisir la distance juste avant la chute la plus importante de l'autocorrélation spatiale (avant la plus faible structure spatiale).
Les médecins généralistes sont géocodés à l'adresse exacte.
On applique un Kernel Density Estimator (KDE) :
Lissage spatial
Lissage géographique
Choix de la bandwidth
Limites
Nature du problème
Impacts observés
Approches pratiques
Approche contextuelle
Tests de robustesse
Documentation
Openshaw, S. (1984). The Modifiable Areal Unit Problem. Geo Books, Norwich.
Ouvrage fondateur qui explore en profondeur le MAUP, ses implications et ses effets sur les analyses spatiales.
Fotheringham, A. S., & Wong, D. W. S. (1991). "The Modifiable Areal Unit Problem in Multivariate Statistical Analysis". Environment and Planning A, 23(7), 1025-1044.
Article clé qui étudie le MAUP dans le contexte d'analyses multivariées, avec des exemples de l'impact du MAUP.
Bailey, T. C., & Gatrell, A. C. (1995). Interactive Spatial Data Analysis. Longman, Essex.
Référence pour les techniques de lissage et les statistiques spatiales appliquées.
Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman and Hall, London.
Ouvrage de base sur l'estimation de densité, qui décrit les méthodes de lissage par noyau (KDE).
Waller, L. A., & Gotway, C. A. (2004). Applied Spatial Statistics for Public Health Data. Wiley, Hoboken.
Un manuel détaillant les approches statistiques spatiales, y compris le lissage et la correction des effets de bord.
Anselin, L. (1988). Spatial Econometrics: Methods and Models. Kluwer Academic Publishers, Dordrecht.
Ouvrage de référence pour les méthodes de régression spatiale.
Banerjee, S., Carlin, B. P., & Gelfand, A. E. (2014). Hierarchical Modeling and Analysis for Spatial Data. Chapman & Hall/CRC.
Exploration des modèles hiérarchiques bayésiens et de leurs applications en analyses spatiales.
Dark, S. J., & Bram, D. (2007). "The Modifiable Areal Unit Problem (MAUP) in Physical Geography". Progress in Physical Geography, 31(5), 471-479.
Article de synthèse qui explique les effets du MAUP en géographie physique.